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PROCEDE DE CODAGE DE LA PAROLE ET TERMINAUX POUR LA MISE EN OEUVRE DU PROCEDE. 



(57) Le procede de codage de la parole, constitute d'une 
sequence d'unites phoniques, consiste a comparer les uni- 
tes a des references en bibliotheque associees a des mots 
de code primaires, a determiner les differences entre les 
unites et les references, on code les differences par des 
mots de code secondaires pour substituer aux unites des 
paires de codes primaire et secondaire et, si la comparaison 
porte sur ies energies de spectres de raies de frequences, 
on determine, pour les raies, des coefficients de pondera- 
tion, normes par rapport a I'energie des raies de reference, 
et on integre les coefficients dans le mot de code secondai- 
re. 
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Procede de codage de la parole et terminaux 
pour la mise en oeuvre du procede. 

La transmission de la parole sur le reseau telephonique commute RTC 
necessite de disposer d'une bande-passante suffisante pour que la parole 
reste comprehensible. Une bande allant des tres basses frequences a 
quelque kilohertz represente un bon compromis entre fidelite de 
restitution et ressources en bande-passante. De ce fait, pour transmettre la 
voix dans le reseau RTC, dont les liaisons inter-centraux sont 
numeriques, on code les frequences vocales pour les transformer en un 
signal numerique au debit de base du reseau RTC, representant 
1'evolution de 1' amplitude du signal vocal. 

On souhaite cependant parfois reduire le debit de la transmission par 
exemple dans un terminal de synthese vocale, dont la memoire de 
messages doit rester de taille limitee. De meme, on peut souhaiter 
n'utiliser qu'une voie de transmission d'un reseau specifique, a debit bien 
inferieur au debit ci-dessus du reseau telephonique. 

En pareil cas, on tente de reconnaitre a la volee les divers phonemes 
d'une sequence vocale. On compare ces phonemes a des references, d'une 
bibliotheque, associees a des mots de code et on remplace ces phonemes 
par les mots de code correspondants, qui decrivent la parole avec une 
quantite d' informations bien moindre. C'est ainsi que la voix est 
comprimee. 

En reception, le terminal appele comporte la meme bibliotheque et 
reconstitue, par synthese vocale, des signaux analogiques correspondant 
aux divers mots de code. 

Mais une telle facon de proceder presente 1' inconvenient de ne restituer 
qu'une voix normalised par la bibliotheque, done impersonnelle, et il est 
done par essence impossible de reconnaitre le correspondant pour 
authentifier un message vocal. Les inflexions ou flucturations de voix, qui 
sont aussi de 1' information tout comme la signification des paroles elles- 
memes, ne sont done pas restituees. 
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La presente invention vise a obtenir un codage de la voix qui permette a 
la fois une compression de 1' information et une restitution personnalisee. 

A cet effet, 1' invention concerne tout d'abord un procede de codage de la 
parole constitute d'une sequence d'unites phoniques, dans lequel on 
compare les unites a des references en bibliotheque assoctees a des mots 
de code primaires, on determine les differences entre les unites et les 
references, on code les differences par des mots de code secondaires et on 
substitue aux unites des paires de codes primaire et secondaire. 

Ainsi, les mots de code primaires vont coder efficacement, de facon 
compacte, la plus grande partie de l'energie phonique saisie tandis que les 
mots de code secondaires vont ameliorer la fidelite de restitution sans 
cependant accroitre exagerement le volume de donnees de code puisqu'ils 
ne portent que sur une energie limitee et qu'un faible nombre de bits 
permet.de coder cette energie marginale modulant l'energie primaire, 
standard, correspondant aux mots de code primaires. 

L'invention concerne aussi un terminal de codage de signaux de parole, 
comportant des moyens pour saisir une sequence d'unites phoniques et la 
transmettre a des moyens comparateurs agences pour successivement 
comparer les unites phoniques a des references en bibliotheque et ainsi y 
selectionner a chaque fois un mot de code primaire specifique de Tune des 
references, terminal caracterise par le fait que les moyens comparateurs 
sont agences pour determiner une difference entre 1'unite phonique saisie 
considered et la reference correspondant au mot de code selectionne et 
pour transmettre cette difference a des moyens de transcodage, prevus 
pour fournir en reponse un mot de code secondaire correspondant a des 
moyens memoires agences pour associer les mots de code, respectivement 
primaire et secondaire. 

L'invention concerne enfin un terminal de decodage de signaux 
comportant des moyens de reception de signaux representant des mots de 
code primaires de references d'unites phoniques en bibliotheque, et des 
moyens de decodage agences pour selectionner certaines des references 
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en bibliotheque d'apres les mots de code primaires recus et pour 
commander en consequence un transducteur de restitution des signaux de 
parole, terminal caractense par le fait que les moyens de decodage sont 
agences pour decoder en outre des mots de code secondares, de 
correction, associes aux mots de code primaires, et pour corriger en 
consequence les references vocales selectionnees. 

Bien que le procede de l'invention necessite de disposer au total d'un 
terminal de codage et d'un terminal de decodage correspondant, chacun 
de ceux-ci peut etre mis separement sur le marche et la demanderesse 
emend done revendiquer l'un et 1' autre. 

En pafticulier, il est avantageux de prevoir un telecopieur comportant des 
moyens pour inserer les mots de code dans un message de telecopie. 



L'invention sera mieux comprise a l'aide de la description suivante d'un 
mode de mise en oeuvre prefere du procede de l'invention, en reference 
au dessin annexe, sur lequel : 

- la figure 1 represente schematiquement un terminal emetteur et un 
terminal recepteur de signaux vocaux pour la mise en oeuvre du procede 
de l'invention, 

- la figure 2 represente, en fonction du temps t, l'amplitude A d'un signal 
de parole, 

- la figure 3 represente, en fonction de la frequence F, l'amplitude K de 
raies du spectre du signal de la parole 2, et 

- Ia figure 4 est un organigramme illustrant les etapes du procede. 

Le terminal emetteur reference 15 sur Ia figure 1, qui se presente ici sous 
la forme d'un combin6 portable pour reseau de communication radio, 
comporte un microphone 26 de saisie du signal de parole de son 
utilisateur, alimentant un convertisseur analogique/numerique 27 relie en 
sortie a une unite" centrale a microprocesseur 28 associee a deux 
bibliotheques 11 et 12 de sequences sonores ou unites phoniques 
normalisees, telles que phonemes. L'unite centrale 28, qui code la parole, 
commande un emetteur 29, ici radio, dont les emissions sont recues par 



15 




4 



2771544 



• 



• 



10 



15 



20 



25 



30 



un circuit recepteur 30 d'un terminal 35 de restitution de la parole. La 
figure 2 represente ramplitude d'une unite phonique en fonction du temps 
t et la figure 3 represente l'amplitude K des raies du spectre 
correspondant a un instant donne. 

Plus precisement, 1' unite centrale 28 comporte un comparateur 16 pour 
comparer les unites phoniques recues du convertisseur 27 aux unites 
phoniques en bibliotheque. Comme explique plus en details en regard de 
la figure 4, le comparateur 16 a pour fonction de selectionner la reference 
en bibliotheque qui est la plus semblable au signal alors analyse et a aussi 
pour fonction de specifier cette difference, c'est-a-dire de fournir une 
valeur d'ecart pour chacun des criteres ayant servi a la selection. Cette 
difference est ici transcodee par un circuit de transcodage 17, pour 
condenser son expression, sous la forme d'un mot de code secondaire qui 
est memorise dans une memoire 18 sous la commande du comparateur 
16. Ce dernier, qui a prealablement memorise le mot de code primaire 
dans la memoire 18, adresse et commande l'ecriture dans celle-ci pour 
que les deux mots de code, primaire et secondaire, soient associes 
physiquement comme ils le sont d'un point de vue logique, c'est-a-dire 
qu'il soit par exemple defini un chainage entre les deux zones memoires 
les contenant. 

Le terminal recepteur 35 comporte une unite centrale 33 effectuant un 
decodage inverse de la parole pour alimenter un haut-parleur 34. Deux 
memoires formant bibliotheques, 31 et 32, ici externes a l'unite centrale 
33, sont reliees a celle-ci. Le terminal recepteur 35 est ici un terminal 
class ique pour la reception de messages ecrits, appele pager, agence en 
outre pour recevoir des messages vocaux. Divers circuits classiques de 
saisie de numerotation, demission de celle-ci et de visualisation de 
donnees n'ont pas ete represented, dans un but de clarte. 

L'unite centrale 33 comporte un circuit 36 d'adressage des bibliotheques 
31 et 32, respectivement personnalisee et primaire, a partir des mots de 
code recus du circuit recepteur 30. Un circuit tampon 37 recoit en 
reponse, de la bibliotheque primaire 32, des spectres d'unites phoniques 
primaires et les transmet a un circuit 38 de modulation ou composition de 
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ces spectres. Le circuit 38 module ceux-ci en fonction du mot de code 
secondaire associe au mot de code primaire de lecture de la bibliotheque 
primaire 32. Le circuit 38 combine ainsi les informations des mots de 
code primaires et secondares pour reconstituer le signal de parole capte a 
l'origine (26). Cette combinaison peut par exemple etre une addition ou 
une multiplication, de raies de frequences suivie d'une tranformation de 
Fourier inverse ou, encore, elle peut porter directement sur des 
amplitudes de signal. Dans cet exemple, chaque type d'unite phonique 
restituee est memorised dans la memoire personnalisee 31, afin d'utiliser 
directement cette derniere si un meme couple de mots de code, primaires 
et secondares, est ulterieurement recu. En variante, la memoire 31 
pourrait ne contenir que des valeurs de modulation, qu'elle fournirait au 
circuit 38 apres adressage par un mot de code secondaire. 

Les operations de codage et de decodage va maintenant etre exposees plus 
en details, en reference a la figure 4. 

Pour coder la voix, on capte a une etape 1, un signal de parole par le 
microphone 26 et, ici, on le convertit en un signal numerique dans le 
cpnvertisseur 27, a une etape 2. Le signal de parole est alors compare, 
dans V unite centrale-28, a une pluralite de signaux de reference de la 
bibliotheque 11, a une etape 3. La comparison intervient a la volee, en 
pratique cycliquement a vitesse elevee par rapport a la vitesse devolution 
du signal de parole analyse. Celui-ci peut etre considere comme etant une 
sequence d'unites phoniques, specifiques d'une langue donnee, telles que 
voyelles, diphtongues ou hiatus, dont une representation a ete initialement 
mise en bibliotheque 11 et associee a un mot de code, dit primaire, 
particulier a chacune. Lors de la constitution de la bibliotheque 11 et des 
bibliotheques 12 et 32 indiquees plus loin, on effectue plusieurs saisies 
vocales d'un meme locuteur ou de plusieurs pour constituer une reference 
vocale moyenne. De preference cependant, afin d'ameliorer 1'efficacite de 
la reconnaissance future, on memorise (11, 12), pour chaque unite 
phonique, plusieurs references pour constituer un domaine de 
reconnaissance permettant de tolerer des ecarts entre locuteurs. 
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Chaque unite phonique (fig. 2) correspond a une evolution particuliere de 
1' amplitude A ou energie du signal de parole et presente une duree 
susceptible de varier selon la vitesse d'elocution de la personne qui parle. 

L'etape 3 consiste done a comparer 1' evolution des amplitudes des 
signaux de reference a celle du signal capte. Pour s'affranchir des 
variations de vitesse d'elocution, on peut par exemple ne considerer que 
la succession des modulations d 'amplitude significatives (variation 
d'energie depassant un seuil), sans y associer une notion de valeur de 



Sur la figure 2, les fleches verticales, ici au nombre de huit, representent 
l'amplitude des extrema et forment ainsi une signature, supposee ici 
representer une unite phonique determined . 



Si, quittant le domaine temporel de la figure 2, on considere maintenant le 
domaine frequentiel, la transformed de Fourier de l'amplitude instantanee 
A du signal en un point quelconque de la courbe de la figure 2 peut etre 
representee par le spectre de raies de frequences de la figure 3. En 
pratique, on considere que I 'energie vocale se trouve essentiellement 
limitee a trois bandes de frequences, respectivement situees vers 0,1 kHz 
et deux bandes entre environ 1 et 3 kHz ainsi que 5 et 7 kHz, 
respectivement. 

De ce fait, si l'on parcourt la courbe des amplitudes de la figure 2 en 
fonction du temps t, l'amplitude K de chaque raie de la figure 3 va se 
trouver modulee en fonction de 1'evolution de l'amplitude A du signal de 
parole. 

Ainsi, si Ton memorise la succession des spectres de la figure 3, on peut 
reconstituer la succession des amplitudes A du signal d'origine, par 
trans formee de Fourier inverse. 

Afin de limiter le nombre de spectres a traiter, on peut n'effectuer que 
des echantillonnages cycliques, suffisamrnent rapproch6s pour ne pas 
perdre d' information. On peut encore se limiter a un jeu restreint de 
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spectres des extrema d'amplitude representes par les huit fleches de la 
figure 2. Si Ton souhaite encore limiter le nombre de spectres, on peut 
meme ne retenir qu'un seul spectre representant la moyenne de tous les 
spectres sur la periode de temps consideree de 1' unite phonique ou la 
s moyenne des spectres des extrema. 

Comme cela est explique plus loin en detail, on va comparer le spectre 
moyen, ou les spectres, du signal de parole capte a un ou des spectres 
homologues de signaux de parole de reference en bibliotheque pour, 

io d'une part, selectionner le signal de parole de reference (unite phonique) 
le plus semblable au signal capte et, d'autre part, elaborer un signal de 
difference entre le ou les spectres de ce dernier et le ou les spectres du 
signal' de reference selectionne. Le signal de difference est mis sous 
forme de mot de code, dit secondaire, et est associe au mot de code 

15 primaire du signal de reference selectionne (unite phonique reconnue) et 
constitue ainsi une information additionnelle de modulation ou correction 
du signal analogique normalise qui sera restitue a partir du mot de code 
primaire considere. 

20 Les mots de code primaires des unites phoniques successivement 
selectionnes, a mesure que se deroule la sequence vocale, sont memorises 
a une etape 4 pour constituer un message, code selon la norme de la 
bibliotheque 11. 

25 Par ailleurs, a une etape 5, on traite plus avant certaines des unites 
phoniques captees et reconnues, en analysant en detail, ici dans le 
domaine frequentiel par transformee de Fourier inverse, leur spectre en 
frequence, comme explique plus haut, etape 6. 

30 A une etape 7, on compare le spectre de raies j de 1' unite phonique 
d'identite i concernee, ou les spectres representant son evolution au cours 
du temps t, au(x) spectre(s) de l'unite phonique selectionnee en 
bibliotheque 11, contenu(s) dans la bibliotheque associee 12. On etablit 
ainsi pour le, ou chaque, spectre, une serie de coefficients de ponderation 

35 Cijt (i = identite du phoneme, j = rang frequentiel de la raie, t = rang 
temporel) indiquant chacun 1' amplitude ou energie relative de chaque raie 
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j par rapport a son homologue en bibliotheque 12. Exprime autrement, 
ces coefficients representent aussi, bien qu'indirectement, la difference 
relative (1 - Cijt) entre l'unite phonique reconnue et la reference 
correspondante en bibliotheque). Les raies dans chacune des trois bandes 
correspondent en fait a une rangee de mini-bandes de frequences 
adjacentes, dans lesquelles on detecte de 1'energie vocale. L'analyse dans 
le domaine frequentiel, ici choisie, fournit ainsi une information plus 
detaillee que dans le cas d'une analyse dans le domaine temporel de la 
figure 2, ou Ton ne dispose que de ramplitude instantanee A. 

Ainsi, dans le cas des figures 2 et 3, la serie ci-dessus comporte douze 
coefficients representant les douze raies dessinees, si bien qu'un tableau 
de huit telles series represente l'unite phonique, a travers les huit extrema 
dessines. Hormis la reduction du tableau, a une seule serie, on peut 
prevoir de ne retenir qu'un coefficient de ponderation moyen pour 
chacune des trois bandes. Si Ton code chaque coefficient sur simplement 
4 bits, l'erreur ne depasse pas 3 % environ, ce qui est amplement 
suffisant pour restituer un timbre de voix, d'autant que le signal de 
correction represente peu d'energie par rapport au signal norme qu'il 
corrige, si bien que l'erreur, rapportee au total, est faible. 

On peut ainsi associer ici, au mot de code primaire de l'unite phonique 
selectionnee, de 1'ordre de la centaine de bits (12 x 8) si Ton retient 
chaque extremum, ou seuiement 12 bits (4 x 3) pour les trois bandes. 
Comme le timbre de la voix est surtout fourni par les frequences hautes 
de la troisieme bande, on peut meme ne transmettre que le mot de code 
secondaire, de correction, relatif a celle-ci. 

A une etape 8, on transforme le signal de difference de spectres en un 
mot de code secondaire, representant le tableau ou la serie ci-dessus. 
Lorsque la sequence de parole captee s'acheve, les mots de code 
primaires de l'etape 4 et les mots de code secondaires de 1 'etape 8 sont 
associes un a un (etape 9) puis emis sur un reseau de transmission, 
comme par exemple le reseau telephonique commute ou, ici, un reseau de 
radio messagerie (etape 10). 
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Le terminal appele 35 recoit le message a une etape 21 et, a une etape 22, 
un fichier en bibliotheque primaire 32, semblable au fichier de spectres 
12, est lu par le circuit 36 pour en extraire les spectres normalises, 
primaires, d'apres les mots de code primaires. A une etape 23, les mots 
de code secondaires servent a moduler (38) les amplitudes ou energies des 
raies normalisees lues en bibliotheque primaire 32, pour ainsi consumer 
la bibliotheque personnalisee, 31, d'unites phoniques, c'est-a-dire 
comportant en particulier le timbre de la voix captee. Les unites 
phoniques de la bibliotheque personnalisee 31 sont representees sous 
forme numerique dans le domaine temporel, apres une transformation 
prealable par transformee de Fourier inverse. 

A une etape 24, les mots de code primaires recus sont lus success ivement 
pour restituer, par le haut-parleur 34 (etape 25), le signal de parole capte. 
Pour cela les mots de code primaires lisent la bibliotheque personnalisee 
31, qui correspond done a la bibliotheque 11 mais qui a ete personnalisee 
par les caracteristiques en spectre de la voix captee. 

La constitution de la bibliotheque 31 est, comme evoque plus haut, 
facultative et a pour but de memoriser une correction pour chaque mot de 
code primaire, ce qui evite de repeter renvoi du mot de code secondare 
lorsqu'un meme mot de code primaire est emis plusieurs fois. Si, au 
contraire, on emet systematiquement un mot de code secondaire, celui-ci 
peut evoluer pour suivre les eventuelles evolutions du timbre. Dans ce 
cas, la voix restituee est a la fois personnalisee et en outre on restitue 
1'evolution du timbre au fil du temps. 

II faut en outre remarquer que, de facon generate, I'analyse et la 
restitution peuvent porter sur toute la bande de frequences audibles, allant 
d 'environ 15 Hz a 15 kHz, meme si en pratique on peut se limiter a 8 
kHz. Les frequences de la bande allant de 4 a 8 kHz, coupees pour les 
transmissions classiques par le reseau telephonique, sont ici analysees et 
restituees puisqu'on transmet 1' information correspondante sous la forme 
d'une telecommande de la bibliotheque 31, qui contient deja les raies a 
ces frequences, ce qui evite toute transmission explicite de celles-ci. 
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II faut par ailleurs remarquer que, si 1' analyse peut ne porter que sur un 
nombre limits de bandes de fr6quences suffisamment caracteristiques en 
bibliotheque 11, 12, les divers signaux a restituer, en bibliotheque 32, 
contiennent la totalite des raies initialement saisies, c'est-a-dire couvrent 
chacun par exemple une bande d'un seul tenant de 15 Hz a 8 kHz. 

Comme expose au debut, 1* invention peut s'appliquer en dehors de toute 
transmission, pour par exemple memoriser localement un message a 
restituer ulterieurement, c'est-a-dire qu'il s'agit alors de la fonction d'un 
magnetophone. 

Dans une autre forme de realisation, non representee, les mots de code, 
primaire et secondaire, sont associes a des donnees de telecopie pour 
former un message voix-donnees. Le message est saisi par le poste 
telephonique usuellement associe aux telecopieurs et est restitue par le 
meme moyen au niveau du telecopieur appele. Les mots de code, emis 
par un circuit comme 28, sont inseres dans un champ specifique du 
message par un microprocesseur gerant le protocole de transmission de 
telecopies et sont de meme extraits en reception pour etre traites comme 
explique plus haut. On peut ainsi realiser une annotation vocale d'un 
message de telecopie, annotation transmise par exemple comme un en-tete 
de telecopie. 
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1.- Procede de codage de la parole constitute d'une sequence d' unites 
phoniques, dans lequel on compare les unites a des references en 
5 bibliotheque associees a des mots de code primaires, on determine les 
differences entre les unites et les references, on code les differences par 
des mots de code secondaires et on substitue aux unites des paires de 
codes primaire et secondaire. 

10 2.- Procede selon la revendication 1, dans lequel, la comparaison portant 
sur les energies de spectres de raies de frequences, on determine, pour les 
raies, des coefficients de ponderation, normes par rapport a l'energie des 
raies de reference, et on integre lesdits coefficients dans le mot de code 
secondaire. 

15 

3. - Proc6de selon Tune des revendications 1 et 2, dans lequel on 
determine ladite difference a partir d'une succession de spectres 
correspondant a une succession d' amplitudes de 1' unite phonique 
consideree. 

20 

4. - Procede selon la revendication 3, dans lequel on ne considere que les 
amplitudes correspondant a des extrema. 

5. - Procede selon la revendication 2, dans lequel on determine ladite 
25 difference a partir d'un spectre unique moyen de 1' unite phonique 

consideree. 

6. - Procede selon l'une des revendications 2 a 5, dans lequel on limite la 
comparaison frequentielle a trois bandes de frequences. 

30 

7. - Procede selon la revendication 6, dans lequel on exprime le coefficient 
de ponderation des raies de chaque bande par un unique coefficient. 

8. - Terminal de codage de signaux de parole, comportant des moyens (26, 
35 27) pour saisir une sequence d' unites phoniques et la transmettre a des 

moyens comparateurs (16) agences pour successivement comparer les 
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unites phoniques & des references en bibliotheque (11, 12), et ainsi y 
selectionner a chaque fois un mot de code primaire specifique de l'une des 
references, terminal caracterise par le fait que les moyens comparateurs 
(16) sont agences pour determiner une difference entre 1' unite phonique 
saisie consideree et la reference correspondant au mot de code selectionne 
et pour transmettre cette difference a des moyens de transcodage (17), 
prevus pour fournir en reponse un mot de code secondaire correspondant 
a des moyens memoires (18) agences pour associer les mots de code, 
respectivement primaire et secondaire. 

9.- Terminal de decodage de signaux de parole, comportant des moyens 
(30) de reception de signaux representant des mots de code primaires de 
references d' unites phoniques en bibliotheque (32), et des moyens de 
decodage (33) agences pour selectionner certaines des references en 
bibliotheque (32) d'apres les mots de code primaires recus et pour 
commander en consequence un transducteur (34) de restitution des 
signaux de parole, terminal caracterise par le fait que les moyens de 
decodage (33) sont agences pour decoder en outre des mots de code 
secondares, de correction, associes aux mots de code primaires, et pour 
corriger en consequence (38) les references vocales selectionnees. 



10.- Telecopieur selon l'une des revendications 8 et 9, comportant des 
moyens pour inserer les mots de code dans un message de telecopie. 




FIGURE 3 
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